超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
搜索
Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
张佳圆带着他的新产品 Multica 一周斩获 GitHub 1.2w Star回来了。这一次,他想探索的是: 当 AI Agent 已经足够好,一个团队要怎么和多个 Agent 丝滑地协作?Multica 致敬的是 1964 年的操作系统 Multics——那个最终失败、但启发了 Unix 世界半个世纪的“多人、多任务”先驱。今天,它正在创造新的历史。
Anthropic 搞了一个 Agent 版闲鱼:人只负责说自己想卖什么、想买什么,后面的发帖、砍价、还价、成交,全交给 Claude。然后这事真成了,69 个 Claude agent 在办公室里做成了 186 笔交易,总价值 4010 美元。最后,人真把滑雪板、键盘、书、乒乓球这些东西带到办公室,按 Claude 谈好的结果交换
Skill确实好用,但架不住模型和Agent Harness适配翻车。不是所有模型都吃得动Skill,有的用上直接反向掉性能。为了解决这个问题,来自上海交大的IPADS研究团队提出了SkVM:面向Skill的语言虚拟机。
今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:
最近半年,几乎所有新出的漫剧 Agent 都在讲同一个故事: 一个人就能拍一部剧。 工具帮你搞定分镜,你只管想故事。 一个人 + 一个漫剧 Agent 就是 OPC,超级个体。
前两天,一个朋友丢给我一个二维码,只说了一句:“进去看个热闹。”我一看,是互联网最热门的两位名人的AI化身,没有多想,就顺手点了进去。
投资者正在积极争取AI 研究人员创办初创公司,以使 AI 更加可靠和高效。
人类的工作、娱乐、学习、交流,依托电脑、手机、游戏机等设备以及网络来实现。此前,FloatBoat 团队已经发布了 Floatboat 这款产品,将整台电脑打造为 Agent 的运行环境。而今天,团队正式发布了 FloatIM —— 一个专为 Agent 构建的网络。
4 月 18 日,Elastic 中国 AI 搜索技术大会在北京召开。以下内容整理自 Elastic 全球副总裁肖涵,原 Jina AI 创始人兼 CEO 在会上的演讲。肖涵讲述了 AI 搜索的发展历程以及为什么说在 2026 年做 AI 搜索基本就是在做智能体记忆 (Agent Memory)。